Chu trình thiết kế hệ thống
Thu thập dữ liệu (data collection)
Thu thập dữ liệu để huấn luyện (training) và kiểm tra (test) hệ thống.
Dữ liệu cần làm “sạch” và tiền xử lý.
Làm “sạch”: giảm nhiễu, loại bỏ các dư thừa
Tiền xử lý: đổi tên (ví dụ hight 2, normal 1, low 0), chuẩn hóa (ví dụ chuẩn
hóa giá trị về [0,1]), rời rạc hóa (ví dụ rời rạc (lấy mẫu) các giá trị liên tục), trừu tượng
hóa (ví dụ trộn các giá trị với nhau.
Chọn đặc trưng (choose feature)
Kích thước các mẫu dữ liệu thường rất lớn
Giảm kích thước các mẫu trích chọn đặc trưng các mẫu.
Trích chọn đặc trưng phụ thuộc vào bài toán.